查看原文
其他

阿里妈妈技术团队 6 篇论文入选 CIKM 2021

阿里妈妈技术团队 阿里妈妈技术 2022-10-31

关于 CIKM





CIKM(The Conference on Information and Knowledge Management ) 是由ACM主办的信息检索和数据挖掘等领域的国际顶级会议,在相关领域享有较高的学术声誉。今年将于11月1日 - 5日在线上召开。

近日, CIKM 2021 公布了接收结果。本次会议共收到1251篇长文(Full Paper)和626篇短文(Short Paper),均创下CIKM投稿量的历史记录。其中,271篇长文和177篇短文被大会接收,录取率分别为21.7%和28.3%。


阿里妈妈论文概述


阿里妈妈技术团队此次有2篇长文和4篇短文被接收,我们将陆续邀请论文作者为大家详细解析论文思路和技术成果,欢迎关注!

 Heterogeneous Graph Neural Networks for Largescale Bid Keyword Matching

基于异质图学习的搜索广告关键词推荐

摘要:近年来,在线广告在消费者侧的大量工作受到了广泛关注,旨在通过挖掘用户的历史行为模式、搜索词意图以及关键词竞价来呈现个性化的广告内容。而在广告平台的另一侧——广告主侧,广告主营销优化工作在广告系统中也扮演着非常重要的角色。对于搜索广告,关键词推荐(Keyword Recommendation)就是其中一个面向广告主的核心推荐服务。既有的关键词推荐方法仅考虑了点击或文本相似等单一种类的关系建模该任务,而忽略了额外的辅助关系信息(比如广告/关键词与普通商品间的关系)。如何从不同对象间的复杂关系中学习丰富和鲁棒的表示向量十分关键。另一方面,对于通常缺乏足够效果反馈数据的新广告,进行高质量的推荐也非常重要。

为了应对这些挑战,我们提出了HetMatch,一种基于异质图神经网络(HGNN)的关键词推荐模型。通过引入多层次的GNN结构,HetMatch能在微观和宏观层面融合和增强不同类型的辅助关系信息,以更全面和鲁棒地对广告和词进行表征。此外针对冷启动问题,我们采用了多视图框架,使模型能通过多视图任务引入额外的新广告样本。我们通过直通车的工业数据集离线验证了 HetMatch的有效性,并在直通车多个关键词推荐工具上进行了AB 实验,多个业务指标(如消耗与采纳率)相比于基准算法都有显著提升。目前该模型已在直通车全量部署,服务于多个关键词推荐工具。

 One Model to Serve All: Star Topology Adaptive Recommender for Multi-Domain CTR Prediction

One Model to Serve All:阿里妈妈广告多场景下的星型CTR预估模型STAR

摘要:传统的广告/推荐CTR模型一般使用单个场景的数据训练并服务单个场景。但是对于阿里巴巴这样的大规模商业平台,平台经常需要为大量的场景提供CTR预估能力。不同的场景具有相似的用户群体和广告集合,但每个场景也有一些场景特定的用户群体和广告集合。在这种情况下,为每个场景单独训练一个模型忽视场景之间的相似性导致效果变差。另一方面,简单的共享模型很难捕捉不同场景的差异性。为了更好地利用不同场景的数据,我们提出了星型拓扑结构的STAR模型。在STAR模型里,每个场景的网络包含两部分,共享的中心网络以及场景私有的网络。对于每个场景,最终的网络通过共享和私有网络参数相乘得到。通过这种形式,STAR同时建模了场景的相似性和差异性。STAR已经在2020年在阿里妈妈展示广告系统上线,取得了8.0%的CTR提升和6.0的RPM提升。

 Binary Code based Hash Embedding for Web-scale Applications

大规模数据场景下基于二进制编码策略的Hash Embedding表征技术
摘要:现如今,深度学习模型被广泛的应用于Web级应用中,比如推荐系统,广告系统等等。在这些应用中,ID类特征的表示学习(Embeding Learning)是这些模型成功的关键之一。其标准的模式是,为每一个特征值学习一个特征向量。尽管,这种方法能够刻画不同特征的特性,有效提升模型的精度。但是,存储这样的embeding将会消耗大量的空间,极大的约束了这类深度模型的应用和迭代。这样的问题,对于Web级应用而言尤为严重。在本文中,我们提出了基于二进制码的Hash Embedding学习,能够任意比例的压缩存储空间的同时基本维持模型的精度。实验结果表明,模型存储大小缩减1000倍的时候,仍然能维持原有模型的99%精度。

 Learning Effective and Efficient Embedding via an Adaptively-Masked Twins-based Layer 

通过设计动态可适配的孪生掩码层来升级效果和效率兼得的Embedding表征

摘要:在深度推荐模型中,ID类特征的表示学习是至关重要的。其中,每一个特征值将会被映射成一个特征向量。对于同一个特征域的不同特征值,传统的特征表示学习方法会固定对应特征向量的维度大小。这样一种设置统一维度的模式对于表示学习以及对应向量存储而言,都是次优的。尽管,现有的方法尝试从基于规则或者网络搜索的角度去解决这个问题,这些方法需要额外的人工知识或者不易训练,且对于特征向量的热启动也不友好。因此,在本文中,我们提出一种新颖并且高效的特征维度选择方法。具体而言,我们在每一个表示层后面,设计了一个孪生的自适应掩码层(AMTL)来去除每一个特征向量中不需要的维度。这样一种掩码的方式能够灵活的应用在各个模型中,很好的支持了模型特征向量的热启动。大量实验结果表明,所提方法在模型精度上相比于其他方法取得了最好的效果,且同时节省了60%存储开销。

 AutoHERI: Automated Hierarchical Representation Integration for Post-Click Conversion Rate Estimation

AutoHERI: 基于层次表示自动聚合的转化率预估模型

摘要:广告和推荐系统中,转化率(Conversion Rate,CVR)预估是一个重要任务,在排序、智能出价等功能中发挥着关键作用。现有方法利用用户行为序列(如展现->点击->转化)来联合学习多个预估任务,实现全空间CVR预估。为进一步探究用户行为序列中的层次关联以提升CVR预估性能,我们提出AutoHERI:基于层次表示自动聚合的CVR预估模型,将前序任务中的特征表示聚合连接到后序任务以提升其表示学习,自动搜索最优的连接结构来使模型学习有效的特征聚合模式。同时,考虑到不同场景中的聚合模式都不尽相同,AutoHERI通过One-shot 自动搜索来提高搜索效率,保证面向不同场景时的复用性。我们在大规模真实数据集上的离线/在线实验结果都验证了AutoHERI的优越性能。

 SMAD: Scalable Multi-view Ad Retrieval System for E-Commerce Sponsored Search 

SMAD:基于大规模图学习的多视图电商搜索广告匹配系统
摘要:阿里妈妈搜索直通车于2019年开源了工业界首个支持大规模分布式的深度图学习平台Euler(https://github.com/alibaba/euler),被业界普遍使用,并取得了广泛的影响力(截止目前Github Star个数2.6K)。基于此,为了进一步地解决在电商检索系统中海量用户行为以及多视图并存(如共同点击、共同竞买或文本相似等)带来的挑战,我们提出了一种可扩展的多视图广告图匹配引擎(SMAD)。具体地,我们利用查询词和商品的类目树结构,提出了一种类目和相关性约束下的图采样和分割算法,可以实现大规模图的分布式训练;同时,为了更好的捕捉多视图,我们提出了一种并行的多视图训练模型,可以将不同视图下的信息有机融合起来。在阿里妈妈搜索直通车场景中,我们的方法在相关性、覆盖率和平台营收等指标上均取得了明显的增长。

END


欢迎关注「阿里妈妈技术」,了解更多~
疯狂暗示↓↓↓↓↓↓↓

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存